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摘要 : [ 目的 /意义 ] 提出 一 种 基于 余弦 相似 度 的 专利 文献 与 产业 类 目 映射 模型 ， 模 型 拥有 准确 、 高 效 
和 吻 拓 展 的 优点 ， 可 为 后 续 研 究 提 供 借鉴 和 参考 。 [方法 /过 程 ] 整理 现 有 专利 与 产业 类 目 映射 方法 ， 以 
2015 年 度 中国 科 学 院 院 所 发 明 专利 与 《战略 性 新 兴 产 业 分 类 》 为 例 ， 设 计 专 利文 献 与 产业 类 目 映射 模型 并 
做 映射 实验 ， 并 根据 映射 成 果 评价 模型 。 [结果 / 结论] 专利 文献 与 产业 类 目 映射 模型 通过 自然 语言 处 理 
技术 自动 化 得 到 专利 文献 与 产业 类 目的 映射 组 合 ， 可 实现 专利 到 产业 及 产业 到 专利 的 映射 ， 且 可 节省 大 量 
人 力 成 本 并 方便 地 进行 映射 类 目 细 粒 度 的 调整 ， 适 用 于 大 部 分 专利 与 产业 类 目的 映射 。 最 后 ， 指 出 该 模型 
有 待 完 善之 处 ， 并 对 下 一 步 可 拓展 的 应 用 领域 进行 探讨 。 

关键 词 : 专利 文献 ”产业 分 类 类 目 映射 ”映射 方法 
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专利 作为 技术 创新 的 成 果 ， 与 产业 创新 水 
平息 息 相 关 ， 同 时 ， 作 为 参与 市 场 竞 争 的 重要 
工具 ， 也 与 产业 经 济 活动 紧密 联系 。 将 专利 与 
产业 分 类 体系 进行 有 效 映 射 是 技术 转移 和 专利 
情报 研究 工作 中 不 可 或 缺 的 步骤 。 

笔者 在 整理 介绍 现 有 专利 与 产业 类 目 映射 
方法 的 基础 上 ， 制 定 准确 、 高 效 和 易 拓 展 的 模 
型 指导 原则 ， 以 2015 年 度 中 国 科 学 院 〈 以 下 简 
称 “ 中 科 院 ”) 院 所 发 明 专利 与 《战略 性 新 兴 产 业 
分 类 》 为 例 ， 提 出 了 一 种 基于 余弦 相似 度 计算 
的 专利 文献 与 产业 类 目 映射 模型 并 进行 了 映射 


实验 ， 并 根据 映射 成 果 综 合 评 价 本 模型 。 模 型 
通过 自然 语言 处 理 技术 自动 化 得 到 专利 文献 与 
产业 类 目的 映射 组 合 ， 实 现 专利 到 产业 及 产业 
到 专利 的 映射 ， 模 型 可 节省 大 量 人 力 成 本 并 方 
便 地 进行 映射 类 目 细 粒 度 的 调整 ， 适 用 于 大 部 
分 专利 与 产业 类 目的 映射 。 最 后 ， 指 出 本 模型 
有 待 完善 之 处 以 及 完善 后 可 拓展 的 应 用 领域 ,为 
后 续 研 究 提供 借鉴 和 参考 。 


@O 现 有 专利 与 产业 类 目 映 射 方法 
目前 ， 专 利 与 产业 的 映射 方法 主要 有 3 
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种 :基于 专家 判定 的 映射 方法 、 基 于 交叉 检索 
的 方法 和 基于 概率 计算 的 方法 站。 

基于 专家 判定 的 映射 方法 主要 根据 专家 的 
主观 判断 来 确立 类 目 间 的 对 应 关系 ， 虽 然 准确 
率 较 高 ， 但 费时 费力 ， 过 多 依赖 于 人 工 判定 ， 不 
适用 于 大 规模 数据 。 

基于 交叉 检索 的 方法 主要 是 用 一 种 分 类 法 
在 使 用 另 一 种 分 类 法 进行 知识 组 织 的 语料库 中 检 
索 ， 通 过 对 检索 结果 所 标识 的 类 目 进 行 分 析 和 统 
计 ， 建 立 两 种 分 类 法 之 间 的 有 映射 。 该 方法 的 
局 限 性 在 于 : 一 方面 对 数据 量 有 一 定 的 要 求 ， 如 
果 数 据 量 太 小 会 造成 覆盖 率 过 低 的 现象 ， 男 一 方 
面 通过 交叉 检索 得 到 的 是 一 对 多 的 映射 ， 需 要 依 
赖 统计 或 人 工 的 方法 进一步 确定 映射 关系 。 

基于 概率 计算 的 方法 将 分 类 法 类 目的 整体 
概念 分 解 成 若干 足够 小 的 单位 概念 ， 整 体 概念 
的 相似 度 可 以 建立 在 各 单位 概念 相似 度 的 基础 
上 ， 通 过 计算 各 小 类 之 间 的 相似 度 从 而 得 到 整 
体 类 目 之 间 的 概率 ， 其 中 小 类 概率 之 和 应 等 于 
整体 概率 。 单 位 概念 通常 由 关键 词 表示 ， 这 样 
类 目 整 体 概念 的 相似 度 就 转化 为 能 够 表达 单位 
概念 词 的 相似 度 之 和 "1。 该 方法 依据 一 定 的 
规则 用 计算 机 代替 人 工 进行 语义 匹配 ， 省 时 省 
力 ， 但 映射 结果 还 需 进 行 一 定 的 人 工 调 整 。 


@ 映 射 模型 的 指导 原则 


国内 已 有 专利 与 产业 的 映射 过 多 地 依赖 人 
工 判 定 “ 7， 不 具有 普 适 性 ， 且 映射 方法 与 结果 
均 有 竺 完善。 理想 的 映射 方法 应 当 既 满足 映射 
的 准确 性 ， 又 能 保证 效率 和 可 拓展 性 。 基 于 此 
方向 ， 设 定 以 下 指导 原则 : 
2.1 准确 性 

使 用 专利 文献 中 的 标题 与 摘要 信息 作为 专 
利文 献 的 特征 ， 使 用 产业 类 目的 官方 注释 作为 
产业 类 目的 特征 ， 在 初步 分 词 后 ， 提 取 更 能 精 
准 体现 专利 与 产业 特征 的 动词 与 名 词 ， 去 除 不 
具有 明显 特征 的 停 用 词 ， 以 保证 映射 的 准确 性 。 
2.2 高 效率 

2012 版 《战略 性 新 兴 产 业 分 类 》 第 三 层级 
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共有 100 个 类 目 外 ,人 工 逐 一 对 专利 文献 进行 
产业 类 目的 映射 需要 大 量 时 间 ， 应 尽 可 能 地 依 
托 计算 机 技术 自动 化 实现 映射 过 程 ， 减 少 人 工 
的 参与 。 本 模型 通过 计算 机 编程 实现 快速 从 专 
利文 献 及 产业 类 目 中 提取 特征 ， 并 计算 两 者 之 
间 的 相似 度 ， 可 随 着 新 专利 、 新 产业 分 类 的 出 
现 持续 更 新 ， 并 可 以 根据 映射 结果 ， 高 效 灵活 
调整 抽取 的 类 目 特征 词 词性 及 数量 ， 依 赖 于 客 
观 的 算法 而 不 是 人 为 的 主观 判断 。 
2.3 易 拓展 

本 映射 模型 除了 探讨 专利 文献 与 产业 类 
目的 有 映射， 还 将 侧重 于 构建 完善 续 密 的 映射 流 
程 ， 便 于 下 一 步 将 映射 方法 拓展 至 其 他 产业 分 
类 体系 及 类 目 细 粒度 的 调整 。 
2.3.1 扩展 至 其 他 产业 分 类 

国内 正在 使 用 的 产业 分 类 除了 《战略 性 新 
兴 产 业 分 类 》 外 , 还 有 《国民 经 济 行业 分 类 》《 高 
技术 产业 分 类 》《 十 大 重点 产业 分 类 》《 统 计 
用 产品 分 类 目录 》 和 《产业 结构 调整 目录 》 等 , 而 
现 有 的 映射 成 果 均 基于 专家 判定 且 仅 对 部 分 产 
业 分 类 进行 了 映射 ~。 当 新 版 本 的 产业 分 类 发 
布 时 ， 重 新 映射 往往 需要 大 量 人 力 物 力 ， 为 避 
免 重复 工作 ， 本 模型 侧重 于 设计 完善 的 映射 流 
程 ， 通 过 计算 机 技术 自动 从 产业 类 目 中 的 官方 
注释 抽取 特征 词 ， 在 保证 准确 性 的 前 提 下 ， 提 
升 可 扩展 性 ， 便 于 映射 至 其 他 产业 分 类 。 
2.3.2 便于 类 目 细 粒度 的 调整 

《战略 性 新 兴 产 业 分 类 》 共 有 3 层 类 目 层 
级 ， 第 一 层级 7 个 类 目 ， 第 二 层级 30 个 ， 多 
层级 100 个 , 若 有 效 利 用 各 个 类 目的 注释 信息 , 可 
以 方便 地 调整 类 目 映 射 的 层级 。 


O 基于 余弦 相似 度 的 映射 模型 


基于 映射 模型 制定 的 准确 、 高 效 和 易 拓 展 的 
指导 原则 ， 本 节 设 计 了 专利 文献 与 产业 类 目的 映 
射流 程 ， 依 据 此 流程 初步 实现 2015 年 度 中 科 院 院 
所 8309 条 发 明 专利 与 《战略 性 新 兴 产 业 分 类 》 第 
三 层级 100 个 类 目的 映射 ， 并 在 第 4 节 中 根据 映 
射 成 果 综 合 评价 本 模型 ， 映 射流 程 如 图 1 所 示 : 
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Vv 
从 专利 文献 标题 与 摘要 从 官方 类 目 注释 中 抽取 
中 抽取 的 专利 特征 词 的 类 目 特 征 词 
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( 专利 数据 特征 词 | 
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( 问 量 空间 模型 格式 的 语料库 | 
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( 产业 类 目 特 征 词 () 


We 
=} 
yq 
+ 
= 
地 
| 


计算 专利 与 类 目 之 间 的 余弦 相似 度 


根据 类 目 相似 度 和 矩阵 建立 映射 关系 


3.1 获取 数据 

考虑 到 专利 数据 量 与 映射 结果 评价 的 可 操 
作 性 ， 实 验 选 取 2015 年 度 中 科 院 各 院 所 8 309 
条 发 明 专利 进行 实验 ， 产 业 类 目 以 第 三 层级 100 
个 类 目 进行 映射 ， 实 验 共 需 两 大 类 数据 ; 
3.1.1 专利 文献 数据 

中 国 科 学 院 文献 情报 中 心 研 发 和 维护 的 “中 
国 科学 院 专 利 在 线 分 析 系 统 ” 收 集 了 来 源 于 国家 
知识 产权 局 自 1985 年 以 来 公布 的 全 部 中 国 专 利 
AE, SARAH MEA IM, FER ACSI BE 
据 的 需求 。 实 验 设 定 以 下 检索 条 件 ， DZMH 
家 为 中 国 ，@ 申 请 日 为 2015 年 1 月 1 日 至 2015 
4212 H 31 H; @ 申 请 人 包含 中 科 院 ，@ 专 利 
类 型 为 发 明 与 发 明 授 权 。 即 专利 数据 库 中 2015 
年 申请 人 为 中 科 院 相关 单位 所 有 的 中 国 发 明 专 
利 ， 共 检索 8 309 条 ， 下 载 全 部 专利 数据 的 主 分 
类 号 、 申 请 人 、 标 题 和 摘要 信息 。 
3.1.2 产业 类 目 官方 注释 

《战略 性 新 兴 产 业 分 类 》 包 括 节能 环保 、 弟 


> 


图 1 基于 余弦 相似 度 的 专利 文献 与 产业 类 目 映射 流程 


一 代 信 息 技术 、 AE eine HE. TEV. % 
材料 、 新 能 源 汽 车 七 大 国家 战略 性 新 兴 产 业 ， 用 
于 实验 的 版 本 为 “2012 版 "， 该 版 本 分 类 表 第 三 
层级 共有 类 目 100 个 ,整理 其 全 部 分 类 注释 信息 。 
3.2 抽取 关键 词 

实验 基于 Python 语言 ， 通 过 自然 语言 处 理 
技术 从 原始 数据 中 抽取 关键 词 ， 共 分 为 以 下 3 
个 步骤 : 
3.2.1 分 词 实验 

使 用 中 文 分 词 开源 组 件 “ 结 巴 中 文 分 词 ”1 
进行 分 词 。 该 分 词 工 具 基 于 前 级 词典 实现 高 效 
的 词 图 扫描 ， 生 成 句子 中 汉字 所 有 可 能 成 词 情 
况 ， 将 其 组 成 有 向 无 环 图 ， 采 用 动态 规划 查找 
最 大 概率 路 径 的 方法 ， 找 出 基于 词 频 的 最 大 切 
分 组 合 。 对 于 没有 被 收录 在 分 词 词 表 中 的 词 , 采 
用 基于 汉字 成 词 能 力 的 HMM 模型 使 用 了 
Viterbi 算法 ， 具 有 较 好 的 分 词 能 力 。 
3.2.2 词性 判断 

“结巴 中 文 分 词 ?工具 采用 的 是 中 国 科学 院 
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计算 技术 研究 所 汉语 词性 标记 集 的 词性 标记 
法 ， 共 有 22 大 类 词性 ， 如 名 词 、 时 间 词 、 方 位 
词 和 动词 等 。 在 实际 操作 中 ， 发 现 名 词 和 动词 
更 能 精准 体现 专利 与 产业 的 特征 ， 因 此 在 分 词 


词语 ， 不 具有 明显 特征 ， 通 常 认 为 一 个 词 在 语 
料 库 中 大 量 出 现时 为 噪声 词 '"。 为 保证 提取 关 
键 词 的 准确 性 ， 对 噪声 词 进行 删除 处 理 ， 基 于 
语料库 中 的 词 频 统 计 与 百度 停 用 词 列表 确定 了 


后 进行 条 件 判 断 ， 仪 提取 分 词 结果 中 的 名 词 与 
动词 。 
3.2.3 去 除 停 用 词 

停 用 词 指 在 注释 中 类 别 色 彩 不 强 的 中 性 
词 ， 例 如 类 似 、 用 于 、 提 供 、 能 够 等 常用 高 频 


本 实验 所 用 停 用 词 表 中。 

经 过 以 上 处 理 后 ,已 可 批量 提取 较为 准确 
的 关键 词 ， 为 便于 观察 效果 ， 列 举 《 战 略 性 新 
兴 产 业 分 类 》 中 第 一 个 与 最 后 一 个 类 目的 关键 
词 抽取 结果 ， 如 表 1 所 示 : 


表 1 《战略 性 新 兴 产 业 分 类 》 抽 取 关 键 词 结果 ( 示例 ) 
代码 KHAI 抽取 关键 词 结果 
LLI ”高 效 节 能 通 锅炉 、 制造、 节能 人 型、 电站、 锅炉 、 节 能 型 、 工 业 锅 炉 、 节 能 型 、 船 用 、 蒸 汽 锅炉 、 省 煤 器 、 
用 设备 制造 流 化 床 、 油 页 岩 、 锅 炉 、 秸 和 帮 、 锅 炉 、 煤 泥 、 流 化 床 、 锅 炉 、 荤 热 、 高 炉 、 煤 气 、 锅 炉 、 
锅炉 、 装 置 、 煤 粉 、 工 业 锅 炉 、 泵 、 真 空 设备 、 制 造 、 节 能 、 节 能 型 、 真 空 、 干 燥 设 备 、 
节能 型 、 真 空 护 、 节 能 型 、 真 空 、 气 体 、 压 缩 、 节 能 型 、 制 冷 、 压 缩 机 、 节 能 型 、 制 冷 、 
压缩 机 、 液 压 、 气 压 、 动 力 机 械 、 元 件 、 制 造 、 节 能 、 液 压 、 元 件 、 制 造 、 节 能 、 气 压 、 
元 件 、 制 造 、 烘 炉 、 炊 炉 、 电 炉 、 制 造 、 节 能 型 、 炉 用 、 燃 烧 器 、 节 能 型 、 机 械 、 加 、 煤 机 、 
装置 、 节 能 、 工 业 电 炉 、 节 能 型 、 电 热 、 金 属 、 炉 、 节 能 型 、 辊 道 、 窑 、 节 能 型 、 隧 道 窑 、 
节能 型 、 梭 式 、 窗 、 节 能 型 、 推 板 、 窗 、 节 能 型 、 保 护 、 气 氛 、 窗 炉 、 节 能 型 、 氨 化 、 窑 、 
节能 型 、 烧 成 、 窗 炉 、 节 能 型 、 烘 烤 、 钢 坏 、 步 进 、 葛 热 、 加 热 炉 、 节 能 型 、 窑 炉 、 炊 炉 、 
风机 、 风 扇 、 制 造 、 节 能 型 、 风 机 、 节 能 型 、 工 业 、 风 扁 、 节 能 型 、 工 业 用 、 通风 、 单 、 单 、 
制冷 、 空 调 设备 、 制 造 、 节 能 型 、 工 商 、 制 冷 、 节 能 型 、 工 商 、 冷 藏 、 冷 冻 柜 、 节 能 型 、 
中 央 空 调 、 冷 水 、 热 泵 、 机 组 、 节 能 型 、 工 商 、 空 调 设备 、 通 用 设备 、 制 造 业 、 节 能 型 、 
干燥 设备 
7.3.3 ”新 能 源 汽车 工程 、 技 术 、 新 能 源 、 汽 车、 电动 、 集 成 、 技术、 新 能 源 、 汽车 、 整 车 、 技术、 新 能 源 、 汽车、 
研发 服务 E DLAC. 技术 、 新 能 源 、 汽 车、 整 车 、 轻 量化 、 技术、 新 能 源 、 汽车、 整 车 、 生 产 工艺 、 


、 新 能 源 、 汽 车 、 功 率 、 


3.3 TF-IDF 处 理 

为 了 更 准确 地 计算 类 目 之 间 的 相似 
度 ， 需 将 提取 的 关键 词 进 行 TF-IDF 处 理 。 
TF-IDF 是 一 种 用 于 信息 检索 与 数据 挖掘 的 
常用 加 权 技 术 ，TF (term frequency) 即 词 
频 ，IDF (inverse document frequency) 即 
道 向 文档 频率 ，TF-IDF 为 两 者 的 乘积 1。 
该 方法 用 以 评估 某 一 字 词 对 于 一 个 语料库 中 
的 其 中 一 份 文件 的 重要 程度 ， 字 词 的 重要 性 
随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ， 但 
同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 反比 


新 能 源 、 汽 车 、 整 车 、 技 术 、 新 
、 汽 车 、 电 池 、 管 理 系统 、 集 成 、 技 术 、 新 能 源 、 汽 车 、 大 容量 、 
能 源 、 汽 车 、 电 池 、 管 理 系统 、 新 能 源 、 汽 车 、 
电机、 开发 技术 、 新 
新 能 源 、 汽 车 、 传 感 器 、 开 发 技术 、 新 能 源 、 汽 车 、 功 率 、 器 件 、 技 术 、 新 能 源 、 汽 车 、 
得 接 、 工 艺 、 开 发 技术 、 电 动车 、 传 感 器 、 电 子 元 件 、 技 术 、 动 力 、 技 术 


能 源 、 汽 车 、 汽 车 、 整 车 、 产 品 、 质 量 检验 、 评 定 、 
动力 电池 、 新 
EB 机、 技术 、 新 能 源 、 汽 车 、 电 机 、 制 造 、 
能 源 、 汽 车 电机 、 控 制 器 、 开 发 、 技 术 、 


下 降 (15) 

某 一 特定 文件 中 的 高 字 词 频率 以 及 该 字 词 
在 全 语料库 中 的 低频 率 ， 可 以 产生 出 较 高 权重 
的 TF-IDF。 因 此 ，TF-IDF 倾向 于 过 滤 常 见 的 字 
词 ， 保 留 具有 类 别 区 分 能 力 的 字 词 。 
3.4 计算 余弦 相似 度 

在 上 一 步 中 ,已 给 每 一 个 关键 词 都 赋予 了 
TF-IDF 值 ， 本 小 节 将 使 用 余弦 相似 度 (cosine 
similarity) 计算 专利 文献 与 产业 类 目 之 间 的 相似 
性 。 要 计算 两 个 文本 之 间 的 余弦 相似 度 ， 步 又 
如 下 : 
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3.4.1 向 量化 处 理 
可 以 将 每 一 个 专利 文献 的 关键 词 与 产业 类 


目的 查询 词 用 向 量 来 表示 : 
Patent 天 (Wi Wyi, W3i,..., Wei) (1) 
Industry =(W1 q wa Wan， Wig) (2) 


每 一 维 都 表示 某 一 专利 文献 或 产业 类 目 中 
出 现 字 词 所 对 应 的 TF-IDF {E w, PE RERO 
出 现在 某 一 专利 文献 或 产业 类 目 中 不 同 字 词 的 
个 数 。 
3.4.2 计算 余弦 相似 度 

每 一 个 专利 文献 或 产业 类 目 都 由 对 应 高 维 
度 的 向 量 表示 ， 每 个 字 词 被 赋予 不 同 的 维度 ， 各 
个 维度 上 的 值 为 其 对 应 的 TF-IDF 值 ， 即 每 一 个 
专利 文献 或 产业 类 目 已 转换 成 一 个 包含 字 词 重 
要 程度 的 向 量 。 余 弦 相 似 度 通 过 测量 两 个 向 量 
夹 角 的 余弦 值 来 度量 它们 之 间 的 相似 性 ， 余 下 
值 越 接近 1， 表明 夹 角 越 接近 0 度 ， 即 两 个 向 量 
越 相 似 。 因 此 余弦 相似 度 可 以 给 出 专利 文献 与 
产业 类 目的 相似 度 ， 该 方法 通常 用 于 文本 挖 气 
中 的 相似 性 比较 2。 专利 文献 与 产业 类 目的 余 
弦 相 似 度 的 计算 公式 如 下 所 示 : 
Patent, : Industry 


sim(Patent,, Indust = EEE EE 
oo Ya) = T Patent, | Industry, || 


N 
E > ja Viha 
W 7 W 7 (3 
ie Wd 2 Wig 


3.5 类 目 相 似 度 和 矩阵 

经 过 上 述 步 又， 最 终 可 以 得 到 100x8 309 
的 专利 文献 与 《战略 性 新 兴 产 业 分 类 》 相 似 度 
和 矩 阵 ， 行 为 《战略 性 新 兴 产 业 分 类 》 第 三 层级 
100 个 类 目 ， 列 为 2015 年 度 中 科 院 各 院 所 全 8 
309 个 发 明 专 利 。 

每 一 个 专利 文献 与 产业 类 目 都 对 应 相应 的 
相似 度 值 ， 正 值 表明 正 相 关 ， 正 值 越 大 表明 越 
相关 ， 可 以 根据 此 矩阵 判定 专利 文献 与 产业 类 


) 
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目的 映射 情况 。 同 时 , 也 可 将 此 矩阵 转 置 处 理 , 用 
以 查看 每 一 个 产业 类 目 对 应 的 专利 文献 ， 从 而 
统计 发 现 各 产业 类 目下 中 科 院 各 研究 所 的 专利 
布局 等 信息 。 


全 映射 结果 的 评价 


4.1 专利 文献 至 产业 类 目 
4.1.1 宏观 分 析 

在 最 终 的 相似 度 矩 阵 中 ， 每 一 个 专利 文献 
与 产业 类 目 都 对 应 相应 的 相似 度 值 ， 实 验 设 定 
相似 度 值 大 于 0 为 正 相 关 ， 因 此 对 该 专利 文献 
推荐 所 有 相似 度 为 正 的 产业 类 目 ， 并 以 相似 度 
值 大 小 正 序 排列 。 为 便于 观察 整体 推荐 类 目 数 
量 分 布 ， 作 如 下 数据 统计 ，8 309 条 专利 文献 
平均 推荐 的 产业 类 目 数 信息 见 表 2。 

专利 文献 与 产业 类 目的 映射 频数 分 布 直方 
图 见 图 2. 

从 图 2 可 知 频数 分 布 直方 图 为 右 偏 分 布 ， 推 
荐 的 映射 数量 集中 在 “10 至 60”， 可 满足 一 定 
的 映射 数量 ， 进 一 步 分 析 发 现 ， 映 射 结 果 可 以 
保证 对 99% 的 专利 文献 推荐 5 个 以 上 的 产业 类 
目 ， 对 96% 的 专利 文献 推荐 10 个 以 上 的 产业 类 
目 ， 可 用 于 专家 进一步 判断 选择 。 推 荐 满足 率 
情况 见 表 3。 
4.1.2 微观 分 析 

在 4.1.1 小 节 中 对 映射 的 整体 情况 作 了 评 
价 ， 本 小 节 将 深入 分 析 具 体 专利 文献 的 推荐 映 
射 成 果 。 为 保证 客观 合理 ， 将 选择 符合 映射 推 
荐 数量 中 下 四 分 位 数 、 中 位 数 和 上 四 分 位 数 的 
第 一 个 专利 ， 例 如 专利 文献 与 《战略 性 新 兴 
产业 分 类 》 的 推荐 映射 结果 中 下 四 分 位 数 为 
24， 出 现 同 时 满足 24 个 映射 结果 的 专利 有 143 
个 ， 选 择 8 309 条 专利 中 第 一 条 满足 此 数目 的 专 
利 ， 共 计 分 析 3 个 专利 ， 对 每 个 专利 推荐 相似 
度 值 排名 前 5 的 产业 类 目 , 详细 结果 如 表 4 所 示 : 


表 2 8 309 条 专利 文献 推荐 的 产业 类 目 数 统计 


产业 分 类 


总 类 目 数 ”平均 推荐 数 ” 中 位 数 ”下 四 分 位 数 ” 上 四 分 位 数 ”最 小 值 ”最 大 值 


《战略 性 新 兴 产 业 分 类 》 100 34.5 


24 45 0 87 
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图 2 8309 条 专利 文献 与 《战略 性 新 兴 产 业 分 类 》 的 映射 频数 分 布 直方 图 


表 3 对 8 309 条 专利 文献 推荐 产业 类 目 满足 率 一 览 
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产业 分 类 推荐 1 个 满足 率 推荐 3 个 满足 率 推荐 5 个 满足 率 推荐 10 个 满足 率 
《战略 性 新 兴 产 业 分 类 》 99.9% 99.6% 99.0% 95.8% 


RA 专利 文献 与 《战略 性 新 兴 产 业 分 类 》 了 映射 结果 微观 分 析 一 览 


chinaXiv 


选取 依据 专利 标题 相似 度 前 5 的 类 目 相似 度 值 
中 位 数 TEED BATIK, RAZ. 6.1.2 新 型 膜 材 料 制造 0.082 7 
METRES UBT 1 1.3.2 工业 固体 废物 、 废 气 、 废 液 回收 和 资源 化 利用 0.024 1 
法 1.4.1 节能 环保 科学 研究 0.014 5 
6.3.1 高 性 能 纤维 复合 材料 制造 0.013 5 
6.4.3 智能 材料 制造 0.009 7 
下 四 分 位 数 。” 一 种 二 氧化 钒 /氧化 锌 纳 2.2.1 通信 设备 制造 0.085 6 
米 复 合 粉 体 的 制备 方法 “1.3.5 水 资源 循环 利用 与 节 水 0.085 1 
2.2.3 广播 电视 设备 及 数字 视听 产品 制造 0.041 4 
2.2.2 高 端 计算 机 制造 0.039 2 
2.1.1 新 一 代 移动 通信 网 络 服务 0.035 1 
上 四 分 位 数 。” 基于 无 线 控制 的 超 薄 切片 6.3.2 其 他 高 性 能 复合 材料 制造 0.019 5 
自动 收集 系统 1.1.5 新 型 建筑 材料 制造 0.0141 
1.3.5 水 资源 循环 利用 与 节 水 0.013 2 
6.2.3 新 型 合金 材料 制造 0.0109 
6.2.2 高 品质 金属 材料 加 工 制造 0.005 9 
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从 结果 中 可 以 看 到 ， 本 模型 可 自动 化 地 对 
每 一 条 专利 推荐 一 定数 量 的 产业 类 目 ， 产 业 类 
目 中 大 部 分 符合 专业 判断 ， 例 如 对 专利 “ 正 渗透 
分 离 方 法 、 聚 葵 乙 烯 磺 酸 钠 的 应 用 及 回收 方法 的 
推荐 情况 ， 该 专利 完整 摘要 信息 为 “本 发 明 提供 
一 种 正 渗 透 分 离 方法 、 聚 茉 乙烯 磺 酸 钠 的 应 用 
及 回收 方法 。 聚 茶 乙 烯 磺 酸 钠 的 应 用 包括 ， 将 
聚 茶 乙 烯 磺 酸 钠 应 用 于 正 渗透 过 程 中 作为 汲取 
溶质 。 本 发 明 解 决 了 现 有 技术 中 汲取 溶质 普遍 
存在 的 渗透 压低 、 反 渗 严 重 、 回 收 困难 ， 有 毒 
以 及 与 膜 兼容 性 不 好 等 问题 ?对 其 推荐 的 5 个 《 战 
略 性 新 兴 产 业 分 类 》 类 目 为 “6.1.2 新 型 膜 材 料 制 
造 ，1.3.2 工业 固体 废物 、 废 气 、 废 液 回 收 和 资 
源 化 利用 ，1.4.1 节能 环保 科学 研究，6.3.1 高 性 
能 纤维 复合 材料 制造 ，6.4.3 智能 材料 制造 >， 可 


ChinaXiv 合 作 期 刊 


见 推 荐 产业 类 目 与 专利 均 有 一 定 相 似 性 ， 这 些 
推荐 类 目 可 供 专家 进一步 判断 选择 ， 节 省 大 量 
的 前 期 人 力 成 本 。 
4.2 产业 类 目 至 专利 文献 
4.2.1 宏观 分 析 

将 最 终 相 似 度 矩阵 的 行 与 列 转 置 处 理 ， 得 
到 行为 2015 年 度 中 科 院 各 院 所 8 309 个 发 明 专 
利 ， 列 为 《战略 性 新 兴 产 业 分 类 》 第 三 层级 100 
VE A AEE REE, BE PM A 
文献 都 对 应 相应 的 相似 度 值 ， 本 实验 设 定 相似 
度 值 大 于 0 为 正 相 关 ， 因 此 对 该 产业 类 目 推 荐 
所 有 相似 度 为 正 的 专利 文献 ， 并 以 相似 度 值 大 
小 正 序 排列 。 为 便于 观察 整体 推荐 专利 数量 分 
布 ， 作 如 下 数据 统计 ，100 个 产业 类 目 平 均 推 荐 
的 2015 年 度 中 科 院 专利 数 信息 ， 如 表 5 所 示 : 


表 5 100 个 《战略 性 新 兴 产 业 分 类 》 类 目 推荐 的 2015 年 度 中 科 院 专利 数 统计 


专利 属性 


总 专利 数 ”平均 推荐 数 ”中 位 数 ”下 四 分 位 数 上 四 分 位 数 ”最 小 值 


最 大 值 


2015 年 度 中 科 院 专利 8 309 386.0 356.5 


产业 分 类 与 专利 文献 的 映射 频数 分 布 直方 


[0，100] [100, 200 200, 300) [300, 400) [400, 500) 


229.5 540.25 8 888 


图 如 图 3 所 示 : 


(500, 600) [600, 700) 700, 800) [800, 900) 


m= —-— RE 


可 以 发 现 ， 产 业 类 目 与 专利 文献 的 映射 频 
数 分 布 直方 图 没有 明显 的 分 布 特征 ， 其 结果 与 


28 


图 3 100 个 《战略 性 新 兴 产 业 分 类 》 与 专利 文献 的 映射 频数 分 布 直方 图 


选择 映射 的 专利 文献 数据 有 较 大 关系 ， 不 同 的 
专利 数据 集 将 有 不 同 的 频数 分 布 ， 本 实验 映射 
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结果 中 推荐 的 最 小 映射 专利 数量 为 8， 可 以 保证 
对 99% 的 产业 类 目 推 荐 10 个 以 上 的 专利 文献 ,用 
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于 统计 发 现 各 产业 类 目下 中 科 院 各 人 研究 所 的 专 
利 布 局 等 信息 ， 推 荐 满足 率 情况 如 表 6 所 示 : 


表 6 对 100 个 《战略 性 新 兴 产 业 分 类 》 类 目 推荐 专利 文献 满足 率 一 览 


产业 分 类 推荐 1 个 满足 率 推荐 3 个 满足 率 


E 荐 5 个 满足 率 ”推荐 10 个 满足 率 


《战略 性 新 兴 产 业 分 类 》 


100% 


4.2.2 微观 分 析 
4.2.1 小 节 中 对 整体 情况 作 了 评价 ， 本 小 节选 
择 《 战 略 性 新 兴 产 业 分 类 》 的 前 两 个 分 类 “1.1.1 高 


100% 100% 99% 


效 节 能 通用 设备 制造 "和 “1.1.2 高 效 节能 专用 设备 
制造 "从 申请 人 角度 统计 具体 产业 类 目下 中 科 院 
各 研究 所 的 专利 布局 信息 ， 统 计数 据 如 表 7 所 示 : 


表 7 对 8 309 条 专利 文献 推荐 产业 类 目 满足 率 一 览 


1.1.1 高 效 节 能 通用 设备 制造 1.1.2 高 效 节 能 专用 设备 制造 

申请 人 专利 数 申请 人 专利 数 
中 国 科 学 院 长 春光 学 精密 机 械 与 物理 研究 所 ”203 ” 中国 科 学 院 长 春光 学 精密 机 械 与 物理 研究 所 188 
中 国 科 学 院 合肥 物质 科学 研究 院 137 ”中 国 科学 院 合 肥 物质 科学 研究 院 150 
中 国 科 学 院 上 海光 学 精密 机 械 研究 所 119 ”中 国 科 学 院 宁波 材料 技术 与 工程 研究 所 138 
中 国 科 学 院 半导体 研究 所 107 ”中 国 科学 院 上 海光 学 精密 机 械 研究 所 119 
中 国 科 学 院 宁 波 材 料 技术 与 工程 研究 所 98 中 国 科学 院 半 导体 研究 所 114 
中 国 科 学 院 理 化 技术 研究 所 89 中 国 科 学 院 过 程 工程 研究 所 96 
中 国 科 学 院 广 州 能 源 研究 所 85 中 国 科 学 院 理化 技术 研究 所 93 
中 国 科学 院 工 程 热 物理 研究 所 73 中 国 科学 院 上 海 硅 酸 盐 研究 所 89 
中 国 科 学 院 过 程 工程 研究 所 71 中 国 科 学 院 上 海 微 系 统 与 信息 技术 研究 所 84 
中 国 科 学 院 上 海 技术 物理 研究 所 71 中 国 科 学 院 长 春 应 用 化 学 研究 所 84 


本 模型 可 以 从 文本 相似 度 角度 观察 某 一 产 
业 类 目下 的 申请 人 分 布 情况 , 例如 2015 年 度 ,中 
国 科 学 院 长 春光 学 精密 机 械 与 物理 研究 所 * 和 “中 
国 科 学 院 合肥 物质 科学 研究 院 " 在 “1.1.1 高 效 节 
能 通用 设备 制造 "? 和 “1.1.2 高 效 节能 专用 设备 制 
造 ” 产 业 领 域内 申请 了 较 多 的 专利 ， 在 中 科 院 各 
人 研究 院 所 中 处 于 领先 水 平 。 


全 结论 与 展望 
5.1 结论 

专利 信息 作为 一 种 集 技术 、 法 律 与 经 济 信 
息 于 一 体 的 战略 性 信息 资源 ， 是 紧密 联系 科技 
和 经 济 两 大 领域 的 纽带 ， 若 能 有 效 利用 专利 数 
据 并 将 其 转化 为 专利 指标 去 评估 、 监 控 产 业 发 


展 状况 ， 将 非常 有 助 于 促进 产业 的 快速 健康 发 
展 。 

笔者 以 2015 年 度 中 国 科学 院 院 所 发 明 专 
利 与 《战略 性 新 兴 产 业 分 类 》 为 例 ， 提 出 了 一 
种 基于 余弦 相似 度 计 算 的 专利 文献 与 产业 类 目 
映射 模型 并 进行 映射 实验 ， 通 过 自然 语言 处 理 
技术 自动 化 得 到 专利 文献 与 产业 类 目的 映射 组 
合 ， 实 现 专 利 到 产业 及 产业 到 专利 的 映射 ， 模 
型 可 节省 大 量 人 力 成 本 并 方便 地 进行 映射 类 目 
细 粒 度 的 调整 ， 适 用 于 大 部 分 专利 与 产业 类 目 
的 映射 。 
5.2 改进 思路 

本 模型 虽然 已 可 得 到 较 可 靠 的 结果 ， 但 准 
确 率 还 有 待 提 高， 以 下 提供 两 个 思路 : 中 增加 
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字 词 的 语义 理解 。 本 模型 仅 从 字 词 层面 进行 相 
似 度 的 计算 , 未 考虑 字 词 的 语义 , 例如 同义词 、 反 
义 词 等 ， 背 可 以 受 善 处 理 语义 层面 的 问题 ， 设 
计算 法 分 别 对 同义词 与 反义词 设 定 不 同 的 权 
重 ， 将 会 提高 模型 的 准确 率 。@) 专 利文 献 增加 
对 应 专利 类 目的 官方 注释 特征 。 本 模型 在 计算 
相似 度 时 ， 未 考虑 专利 文献 对 应 专利 类 目的 类 
目 特征 ，《 国 际 专利 分 类 》 的 官方 类 目 注 释 中 
包含 较为 准确 的 字 词 信息 ， 千 能 设计 算法 综合 
考虑 专利 文献 标题 摘要 信息 与 专利 所 属 专利 类 
目 特征 ， 将 可 以 进一步 提升 模型 的 准确 率 。 
5.3 拓展 应 用 

在 妥善 处 理 现 有 准确 率 问 题 后 ， 本 映射 模 
型 因 有 较 好 的 扩展 性 ， 还 可 拓展 至 以 下 应 用 领 
域 : 


(1) 类 目 细 粒 度 的 调整 。 本 实验 选用 的 产 
业 类 目 细 粒 度 为 最 小 的 第 三 层级 ， 若 方法 得 到 
进一步 的 完善 ， 可 以 方便 地 调整 类 目 映射 的 层 
级 至 第 一 层级 与 第 二 层级 。 

(2) 其 他 产业 分 类 的 映射 。 本 实验 产业 类 
目的 特征 词 来 自 产 业 类 目的 官方 注释 信息 ，《 国 
民 经 济 行业 分 类 》《 高 技术 产业 分 类 》 等 不 同 
的 产业 分 类 均 符合 该 模型 的 数据 需求 ， 可 以 调 
整 后 进行 拓展 。 

(3) 其 他 专利 数据 集 的 映射 。 本 实验 的 专 
利 数 据 为 2015 年 申请 人 为 中 科 院 相关 单位 所 有 
的 中 国 发 明 专利 ， 由 于 专利 信息 标准 规范 ， 可 
选择 任意 集合 的 专利 进行 实验 ， 例 如 选择 近 10 
年 某 研究 所 发 明 专 利 、 某 大 学 2015 年 度 发 明 专 
利和 某 特定 领域 发 明 专 利 等 不 同 专利 数据 集 。 

笔者 在 下 一 步 工 作 中 ， 将 继续 完善 本 模 
型 , 尝试 融合 《国际 专利 分 类 》 类 目 注 释 特 征 , 以 
期 提升 映射 准确 性 。 建 立 完善 的 专利 与 产业 映 
射 体系 ， 可 实现 专利 与 产业 的 对 接 ， 进 而 从 产 
业 角 度 出 发 结合 科技 、 经 济 数据 开展 专利 统计 
分 析 ， 对 相关 产业 创新 活动 、 经 济 发 展 政 策 决 
策 将 具有 重要 意义 。 
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Research on Mapping Patent Document and Industrial Classification 
一 Mapping Between the 2015 Annual Patents of Chinese Academy of Sciences and 
the Classification of Strategic Emerging Industries 


Tian Chuang Zhao Yajuan 
National Science Library, Chinese Academy of Sciences, Beijing 100190 

Abstract: [Purpose/significance] This paper aims to propose a mapping model based on cosine similarity 
for mapping between patent documents and industrial classification. This model is accurate, efficient and 
scalable, which provides some references for the further research. [Method/process] After introducing the 
methods for mapping between patents and industrial classification, we designed a model for mapping between 
patent documents and industrial classification and completed the mapping between the 2015 annual patents of 
Chinese Academy of Sciences and the Classification of Strategic Emerging Industries. Then we evaluated this 
model according to the mapping results. [Result/conclusion] This model obtains the mapping results between 
patent documents and industrial classification automatically by the natural language processing technology 
and enables mapping between patents and industrial classification bi-directionally. The method saves a lot 
of labor costs and can easily adjust the fine-grained classification and be applied to most of the mapping 
between patents and industrial classification. Finally, improvements of the model are described. Some future 
application areas are also briefly discussed in this paper. 


Keywords: patent document industry classification classification mapping mapping methods 
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